クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年7~9月合併号
データアナリティクス事業本部 コンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートとそのブログを追っています。
先月、先々月は業務多忙のため、合併号とさせていただきます。(ゴメンナサイ m(_ _)m)
Amazon Redshiftは、Redshift Serverlessのスケジューラやシングルサインオンの対応、 Amazon Forecastとの統合、QUALIFY句のサポートを開始しました。AWS Glueは、AWS Glue for RayがGAになった他に、AWS Glue for Apache Spark 向け Snowflake 接続の一般提供開始、Amazon CodeWhisperer をサポートするようになりました。Amazon QuickSightは、CI/CDを可能にするアセットのデプロイを自動化および高速化するAPIのサポート、統一されたカラーエクスペリエンスを提供開始、スモールマルチプルとレーダーチャート用の軸のカスタマイズオプションやピボットテーブルの階層レイアウトが可能になりました。
では、ガンガン紹介しますね。
Amazon Redshift
新機能・アップデート
2023/06/07 - Amazon Redshift Serverless がクエリのスケジューリングと Single Sign-On をサポート
Amazon Redshiftでサポートしていたスケジュールクエリが、Amazon Redshift Serverless でも利用できるようになりました。スケジュールクエリは、Query Editor V2 または Amazon Redshift Data APIを使用してクエリのスケジュール実行ができるようになります。
また、Amazon Redshift Serverlessでもシングル サインオンを利用できるようになりました。シングル サインオンは、IDプロバイダー (IdP)のIdP グループのメンバーシップに基づいてユーザーに付与されたデータベース ロールのリストを渡すことができるようになります。Amazon Redshift Query Editor V2、JDBC/ODBC クライアント、および Data API でシングルサインオンサポートします。
2023/06/21 - Amazon Redshift でデータウェアハウスを暗号化するエクスペリエンスが向上
全体の暗号化時間が短縮し、暗号化プロセス中のウェアハウスの可用性が向上しました。
2023/07/17 - Amazon Redshift で SELECT SQL ステートメントの QUALIFY 句のサポートを開始
Amazon Redshift が SELECT SQL ステートメントで QUALIFY 句をサポートするようになりました。これにより、サブクエリを使用せずにウィンドウ関数の結果にフィルタリング条件を適用できます。
実際に検証したブログは以下になります。
2023/07/17 - Amazon Redshift ML が Amazon Forecast との統合を発表
Amazon Redshift ML により、使い慣れた SQL コマンドを使用して、機械学習 (ML) ベースの時系列予測サービスである Amazon Forecast を活用できるようになりました。
2023/07/25 - Amazon Redshift が AWS Glue データカタログの自動マウントを発表
Amazon Redshift は、Amazon Redshift で外部スキーマを作成する必要なく、AWS Glue データカタログにカタログ登録されたデータレイクテーブルを使用できるようになりました。
Redshift query editor v2で、Glueデータカタログが利用できるFederated Userを使用して参照できることを確認しています。
2023/07/25 - Amazon Redshift で Apache Iceberg テーブルのクエリをサポート開始
4月にAmazon Athenaで利用可能になったIcebergフォーマットのテーブルを、Redshiftでもサポートしました 。
執筆時点では、まだプレビューで制限事項が多くありますので限定的です。
2023/08/01 - AWS が Amazon Redshift の Apache Spark との統合のオープンソース化を発表
AWS は、Amazon Redshift の Apache Spark との統合をオープンソース化しました。
APIの変更点
2023/06/20 - Amazon Redshift - 4 new 18 updated methods
Redshift Provisioned クラスタ用のカスタムドメイン名のサポートを追加しました。この機能により、お客様はカスタムドメイン名を作成し、ACMを使用してそのドメイン名への完全にセキュアな接続を生成できます。
Amazon Athena
新機能・アップデート
2023/06/08 - Amazon Athena for Apache Spark now supports Apache Hudi, Apache Iceberg, and Delta Lake
Amazon Athena for Apache Spark は、オープンソースのデータレイクストレージフレームワークである Apache Hudi 0.13、Apache Iceberg 1.2.1、および Linux Foundation Delta Lake 2.0.2 をサポートするようになりました。これらのフレームワークは、ACID (アトミック性、一貫性、分離性、耐久性) トランザクションを使用した大規模なデータ セットの増分データ処理を簡素化し、データ レイクでの大規模なデータ セットの保存と処理を簡素化します。
2023/06/29 - Amazon Athena now supports querying restored data in S3 Glacier
Amazon Athenaを使用して、Amazon Simple Storage Service (S3) Glacierストレージ クラスに保存されているデータをクエリできるようになりました。
APIの変更点
2023/06/02 - Amazon Athena - 1 new methods
このリリースでは、DeleteCapacityReservation APIと、CloudFormationを使用してキャパシティ予約を管理する機能が導入されています。
2023/06/08 - Amazon Athena - 2 updated methods
クラスタの暗号化、テーブルフォーマット、一般的なSparkのチューニングなどのユースケースのために、セッション開始時にカスタムSparkプロパティを定義できるようになりました。
Amazon Glue
新機能・アップデート
2023/06/05 - AWS Glue for Ray is now generally available
AWS Glue for Ray が一般提供されました。AWS Glue for Ray は、データエンジニアや ETL (抽出、変換、ロード) 開発者が Python ジョブをスケールする新たな選択肢です。
Glue for Rayは一般提供開始されましたが、まだVPCへプライベート接続できないため、VPCへのプライベート接続ができるまでは、Data APIを使うことになります。
弊社の笠原さんが「Glue for Rayを使ってみよう」タイトルで、イベントで登壇しています。
2023/06/06 - AWS Glue Data Quality is now generally available
AWS は、データレイクとデータパイプラインの品質を自動的に測定および監視する機能である AWS Glue Data Quality の一般提供を発表しました。
2023/06/16 - AWS Glue Studio のビジュアル ETL に 5 種類のビジュアル変換を新たに追加
AWS Glue Studioは、[Record matching]、[Remove null rows]、[Extract string fragments from a regular expression]、[Parse JSON column]、および [Extract JSON path] という 5 つの新しいビジュアル変換が追加されました。
2023/06/19 - AWS Lake Formation と Glue データカタログがクロスリージョンのテーブルアクセスをサポート
AWS Lake Formation は、リージョン全体で Glue データ カタログ データベースとテーブルへのアクセスをサポートするようになりました。以前は、別のリージョンから Glue データ カタログのデータベースとテーブルにアクセスするには、カタログ アイテムや基礎となるデータをソース リージョンからローカル リージョンにレプリケートする必要がありました。Lake Formation のクロスリージョン サポートにより、Lake Formation が利用可能などのリージョンからでも Glue カタログ データベースとテーブルにアクセスできるようになりました。
2023/07/07 - AWS Glue クローラーで Apache Iceberg テーブルのサポートを開始
AWS Glue クローラーで Apache Iceberg テーブルがサポートされるようになりました。
2023/07/21 - AWS Glue クローラーで Apache Hudi テーブルのサポートを開始
AWS Glue クローラーが Apache Hudi テーブルをサポートするようになりました。
2023/07/25 - AWS Glue ジョブに AWS Glue DataBrew レシピを含めることが可能に
AWS Glue Studio のビジュアル ETL ジョブは、DataBrew レシピを変換フローのステップとして使用できるようになりました。
2023/07/25 - AWS Glue Studio が Amazon Redshift Serverless のサポートを開始
AWS Glue Studio では、データソースまたはターゲットとして Amazon Redshift Serverless をサポートするようになりました。
2023/07/25 - AWS Glue for Apache Spark 向け Snowflake 接続の一般提供開始
AWS Glue for Apache Spark は、Snowflake へのネイティブ接続のサポートを開始しました。
2023/07/26 - AWS Glue Studio が Amazon CodeWhisperer をサポートするようになりました
AI コーディング支援サービスのAmazon CodeWhisperer が AWS Glue Studio で利用可能になりました。Amazon CodeWhisperer は追加料金なしで使用でき、AWS Glue Studio ノートブックでリアルタイムのコードの提案を生成できます。但し、米国東部 (バージニア北部) リージョンでご利用となります。
2023/08/16 - AWS Glue Studio のビジュアル ETL に 5 種類のビジュアル変換を新たに追加
AWS Glue Studioには、[Record matching]、[Remove null rows]、[Extract string fragments from a regular expression]、[Parse JSON column]、および [Extract JSON path] という 5 つの新しいビジュアル変換が追加されました。
APIの変更点
2023/06/19 - AWS Glue - 12 updated methods
このリリースでは、リージョン間のテーブル/データベース リソース リンクの作成のサポートが追加されています。
2023/06/26 - AWS Glue - 5 updated methods
Glue ストリーミング ジョブにおける Kinesis および Kafka データ ソースのタイムスタンプの開始位置に対応しました。
2023/06/29 - AWS Glue - 5 updated methods
Iceberg テーブルを使用した AWS Glue クローラーのサポートが追加され、クローラーが S3 で Iceberg テーブルを検出し、クエリエンジンがクエリを実行できるように Glue データ カタログに登録できるようになりました。
2023/07/07 - AWS Glue - 1 updated methods
Apache Iceberg テーブルと関連メタデータを作成できるようになりました。
2023/07/21 - AWS Glue - 5 updated methods
Apache Hudi テーブルを使用した AWS Glue クローラーのサポートが追加されました。
2023/07/23 - AWS Glue - 5 updated methods
Glue Studio ジョブにDataPrepレシピノードのサポートを追加しました。
Amazon QuickSight
新機能・アップデート
2023/06/07 - Amazon QuickSight が、アセットのデプロイを自動化および高速化する API をサポート
Amazon QuickSight が、BI アセットのデプロイと管理を自動化する新しい API 機能をリリースしました。ダッシュボード、分析、取り込みスケジュールを含むデータセット、データソース、テーマ、アカウントや、環境全体の VPC 設定などの QuickSight アセットをエクスポートおよびインポートするためのプログラムによるアクセスが可能になります。
コンサルティングチームの新納さんがイベントで紹介しています。
2023/06/08 - QuickSight が、標準化されたユーザーレベルのコストと使用状況データの提供を開始
Amazon QuickSight の管理者は、標準化された形式の AWS のコストと使用状況レポートで、すべてのユーザータイプのユーザーレベルのコストと使用状況のデータにアクセスできるようになりました。
2023/07/13 - Amazon QuickSight が分析とダッシュボードのための統一されたカラーエクスペリエンスを提供開始
Amazon QuickSight では、分析とダッシュボードのための新しい統一されたカラーエクスペリエンスが導入されました。作成者はフィールドレベルで色を割り当て、同じフィールドを持つさまざまなビジュアルが同じ色に表現できるようになりました。
2023/07/13 - Amazon QuickSight にスモールマルチプルとレーダーチャート用の軸のカスタマイズオプションが追加
Amazon QuickSight では、スモールマルチプルとレーダーチャート用の新しい軸の構成がサポートされるようになり、ユーザーはユースケースに応じて軸の設定をカスタマイズできるようになりました。
2023/07/25 - Amazon QuickSight now supports Snapshot Export APIs
ページ分割 PDF レポートと CSV コンテンツをプログラムでエクスポートできる新しい API 機能をリリースしました。
2023/07/25 - Amazon QuickSight が分析ファイルメニューを導入
分析体験全体にわたってナビゲーションと効率を向上させるため、分析メニューがリリースされました。
2023/08/09 - Amazon QuickSight がピボットテーブルの階層レイアウトを開始
ピボットテーブル用の階層レイアウトと呼ばれる新しいレイアウトオプションが導入されました。データを階層的に表示、すべての行フィールドが 1 つの列に表示され、異なるフィールドの項目を区別できるようにインデントが付けられます。階層レイアウトは、行フィールドのフットプリントを減らし、数値データ用のスペースを増やし、より整理されたコンパクトなピボットテーブルを作成することでスペースを最適化します。
2023/08/14 - Amazon QuickSight で AWS IAM アイデンティティセンターとの統合の一般提供を開始
Amazon QuickSight が AWS IAM アイデンティティセンター対応しました。QuickSight にサブスクライブしている管理者が、IAM アイデンティティセンターを使用して、ユーザーが既存の認証情報を使ってログインできるようにすることが可能になりました。
2023/07/25 - Amazon QuickSight adds scheduled and programmatic export to Excel format
Amazon QuickSight は、ダッシュボードの任意のシートから複数のテーブルとピボットテーブルビジュアルを選択することによる Excel ワークブックのスケジュールされた生成をサポートするようになりました。スナップショット エクスポート API は、ページ分割された PDF および CSV に加えて、Excel 形式へのプログラムによるエクスポートもサポートするようになりました。
APIの変更点
2023/06/06 - Amazon QuickSight - 9 updated methods
QuickSight では、ピボットテーブルフィールドの折りたたみ状態、レーダー チャートの範囲スケール、および条件付き書式設定での複数のスコープオプションがサポートされています。
2023/07/06 - Amazon QuickSight - 9 updated methods
小さな倍数軸の改善、フィールドベースの色付け、TopBottomFilter の集計関数からの必須特性の削除、の3つの変更点が含まれています。
2023/07/24 - Amazon QuickSight - 3 new 9 updated methods
CSV および PDF エクスポート用の新しいスナップショット API、探索 API のフィルターとパラメーターの情報アイコンのサポートが追加されました。また、モデル化された例外が DeleteAccountCustomization API に追加され、ツールヒントに UNIQUE_VALUE 集計を追加する AttributeAggregationFunction の機能が導入されています。
Amazon AppFlow
新機能・アップデート
2023/06/15 - Amazon AppFlow が 4 つの新しいデータコネクタを発表
Amazon AppFlow で、Software as a Service (SaaS) アプリケーション用の新しい 4 つのデータコネクタがリリースされました。
- Adobe Analytics
- Blackbaud Raiser’s Edge
- Coupa
- Google BigQuery
AWS Clean Rooms
新機能・アップデート
2023/07/16 - AWS Clean Rooms が、大規模なコラボレーションを簡単に行えるようにする 2 つの新機能をリリース
Analysis Builder は、ビジネスユーザーがコードを記述しなくてもインサイトを生成できるようにするガイド付き UI が提供されました。また、AWS CloudFormation テンプレートを使用したコラボレーションの作成、更新、削除や、設定済みテーブルとテーブルの関連付けといったリソースの管理もできるようになりました。
2023/08/30 - AWS Clean Rooms launches new capabilities for increased configurability
AWS Clean Rooms は、構成可能な分析結果設定の一般提供と、Apache Iceberg サポートのプレビューという 2 つの新機能を発表しました。お客様は希望する結果受信者とデータ形式を使用して AWS Clean Rooms コラボレーションをより柔軟に設定できるようになります。
APIの変更点
2023/06/29 - AWS Clean Rooms Service - 4 updated methods
RSQL 結合一致条件での OR 演算子のサポートと、結合一致条件でどの演算子 (AND、OR) を許可するかを制御する機能が追加されました。
Amazon OpenSearch
新機能・アップデート
2023/06/05 - Amazon OpenSearch Service で gp3 ボリュームに対するより高い IOPS とスループットのプロビジョニングが可能に
Amazon OpenSearch Service では、データノードごとにプロビジョニングされる 3 TiB の gp3 ボリュームサイズあたり最大 16,000 IOPS と 1000 MiB/秒 のスループットをプロビジョニングできるようになりました。
2023/06/26 - Amazon OpenSearch Ingestion が Amazon Security Lake からのイベントの取り込みに対応
Amazon OpenSearch Ingestion で、Amazon Security Lake からリアルタイムでイベントを取り込むことができるようになりました。
2023/07/10 - Amazon OpenSearch Service が OpenSearch バージョン 2.7 をサポート開始
Amazon OpenSearch Service で OpenSearch バージョン 2.7 を実行できるようになりました。OpenSearch 2.7 では、OpenSearch Service におけるオブザーバビリティ、セキュリティ分析、インデックス管理、地理空間機能にいくつかの改善が加えられました。
2023/07/26 - Vector engine for Amazon OpenSearch Serverless がプレビューに
Amazon OpenSearch Service では、シンプルかつスケーラブルで、高性能な Vector engine for Amazon OpenSearch Serverless が提供されるようになりました。
2023/07/29 - Amazon OpenSearch Serverless now supports AWS User Notifications
Amazon OpenSearch Serverlessと AWS User Notificationの統合が発表されました。OCU 使用率が検索または取り込みに対して構成された最大制限に近づいた場合やその制限に達した場合に通知を送信するようにシステムを構成できます。ユーザー通知機能により、リソースの使用状況を常に監視する必要性が軽減されます。
2023/07/30 - Service Quotas adds support to increase the instances per domain quota for Amazon OpenSearch Service
Amazon OpenSearch Service ドメインのインスタンス数に対するクォータの増加リクエストをサポートするようになり、AWS アカウントの各ドメインに適用されたクォータ値も表示できるようになりました。
2023/08/15 - Amazon OpenSearch Serverless が大規模なワークロードとコレクションのサポートを拡張
Amazon OpenSearch Serverless で、1 つのコレクションに 1 つ以上のインデックスを含む最大 6 TB の時系列データをスキャンおよび検索できるようになりました。
AWS Lake Formation
新機能・アップデート
2023/07/17 - AWS Lake Formation が LF タグ管理の委任をサポートするようになりました
AWS Lake Formation で、Lake Formation タグ (LF タグ) の権限の作成、管理、付与を Lake Formation 管理者以外のユーザーに委任できるようになりました。このリリースにより、Lake Formation の管理者はデータスチュワードや他のユーザーに LF タグを管理する権限を与えることができるようになります。
AWS Clean Rooms Service
新機能・アップデート
2023/07/21 - AWS Clean Rooms launches new capabilities for increased configurability
AWS Clean Rooms は、構成可能な分析結果設定の一般提供と、Apache Iceberg サポートのプレビューという 2 つの新機能を発表しました。これらのリリースにより、お客様は希望する結果受信者とデータ形式を使用して AWS Clean Rooms コラボレーションをより柔軟に設定できるようになりました。
APIの変更点
2023/07/31 - AWS Clean Rooms Service - 8 new 15 updated methods
実行できる拡張された SQL セットであるカスタム SQL クエリが導入されました。事前定義されたカスタム SQL クエリを事前に保存するための新しいリソースである分析テンプレートが追加されています。このリリースでは、クエリ用の分析テンプレートを承認できるカスタム分析ルールも追加されています。
Amazon MWAA
新機能・アップデート
2023/07/21 - Amazon MWAA が Apache Airflow バージョン 2.6 のサポートを開始
Amazon Managed Workflows for Apache Airflow (MWAA) で Apache Airflow バージョン 2.6 環境を作成できるようになりました。
Amazon Managed Service for Apache Flink
新機能・アップデート
2023/08/30 - Introducing Amazon Managed Service for Apache Flink
AWS は Amazon Kinesis Data Analytics の名前を Amazon Managed Service for Apache Flink に変更します。Amazon Managed Service for Apache Flink を使用すると、データ ストリームを処理するためのオープンソース フレームワークおよびエンジンである Apache Flink を使用して、ストリーミング データをリアルタイムで変換および分析できます。
Amazon EMR
新機能・アップデート
2023/06/01 - EMR on EKS now supports container log rotation for Apache Spark
EKS での EMR で Apache Spark ジョブを実行する際に、コンテナログローテーションを制御する機能が利用可能になりました。コンテナログローテーションを有効にすることで、過剰なログファイルがポッドの実行に影響を及ぼすのを回避できます。
2023/07/27 - Amazon EMR Serverless できめ細かなログ設定の指定が簡単に
Spark および Hive ジョブで Amazon EMR Serverless 上の AWS Secrets Manager からシークレットを取得できるようになりました。Spark や Hive のジョブから、他のシステムに接続するために必要となる、データベースの認証情報や API キーなどの機密情報にSecrets Manager に保存されているシークレットを用いて取得することが可能になります。
2023/07/31 - Amazon EMR Serverless できめ細かなログ設定の指定が簡単に
Amazon EMR Serverless API を呼び出して、アプリケーション UI を表示できるようになりました。たとえば、実行中のジョブの場合はライブの Spark UI または Tez UI を、完了したジョブの場合は Spark History Server または永続的な Tez UI を表示できます。
2023/08/09 - Amazon EMR Studio が AWS Lake Formation のきめ細かなアクセス制御のサポートを追加
EMR Studio ワークスペースで、EMR on EC2 クラスターを介してデータにアクセスする際に、AWS Lake Formation によるきめ細かなデータアクセス制御を適用できるようになりました。
2023/08/15 - Amazon EMR Serverless できめ細かなログ設定の指定が簡単に
ドライバーとエグゼキューターのログにきめ細かなログ設定を指定できるようになりました。これにより、Apache Spark ジョブのトラブルシューティングが簡単になります。
最後に
最近の傾向としては、Amazon Redshift、Amazon Athena AWS Glueが、次世代データレイクフォーマットである、Apache Iceberg、Apache Hudi、Linux Foundation Delta Lakeに関するサポートや頻繁なアップデートがありました。中でも、Apache Icebergの参照・更新は、Amazon AthenaとGlueでサポートしてています。Amazon Redshiftも参照系のクエリをサポートし、この流れに追従することになるでしょう。AWS Glueクローラが次世代データレイクフォーマットをサポートすることで、S3データレイク上のデータに対してACIDに更新できることが当たり前になるのもそう遠い未来ではなさそうです。
先日、AWS主催のオンラインカンファレンス、ちょっぴり DiveDeep する AWS の時間にて「Amazon Athena (Iceberg) x dbt ではじめるデータ分析!」というテーマにて登壇しました。Apache Icebergについても、解説しておりますのでご覧ください。
では、また来月お会いしましょう!